昨天那篇8.5分的客户文章,既做了RIP-seq也做了m6A-seq,很多老师很好奇,数据拿到手上该如何挖掘。如何一步步缩小选择范围,最终锚定到自己所研究的分子上。在昨天这篇头颈癌研究中,作者首先锚定的通路或者研究方向从代谢入手,继而选择时下最热门的铁死亡、铁代谢相关通路上。然后从m6A阅读蛋白YTHDF1入手,结合TCGA、m6A2target、m6A测序等多种手段逐步缩小到只有6个基因。这样后期验证就会方便很多。详情请点击:用户文章:RIP-seq和m6A-seq联合分析揭示头颈癌铁代谢机制 | RIP专题
高分文章不好发,同样要想跟高分文章去挖掘数据更不好操作。RIP-seq作为一种目的性很强的工具,在一些大神手里能发挥出巨大的威力。
与转录组测序不同的是,仅仅罗列测序结果并不适合RIP-seq这套玩法。动辄几万元费用,只能做1-2个样本,如果说把一些结合到的RNA做一些基因功能富集分析,是要面临大老板灵魂拷问的。
在开始今天具体的案例解析前,还是要稍微讲一下RIP-seq数据挖掘几个流派以及各自的优缺点。
流派一:大海捞针这种流派通常不知道自己具体要研究哪些感兴趣的目的基因,拿到RIP-seq结果后不分青红皂白,直接全部捞一遍。通过差异分析的p value,GO和KEGG功能富集分析等,把那些显著富集的通路和差异显著的基因先统统拿出来。这种流派的好处是不放过任何一个死角,从统计学角度出发尽可能地一网打尽。但是坏处也很明显,那就是漫无目的去挖掘基因很容易陷入疲劳,后期开展验证也会畏手畏脚。万一运气不好,选择的靶基因是个假阳性,前面所有的工作会前功尽弃。这种流派常见于一些前期已经挖掘到的阳性蛋白为RNA结合蛋白本身的课题组,这些课题组往往对下游研究的phenotype以及通路基因一无所知的课。这种情况挖掘数据和后期验证会显得较为吃力。这种流派心中基本上已经勾勒出一幅完整的图画,对自己的整个实验设计了如指望。这类流派往往实验已经开展大半部分,RIP-seq只是整个实验设计中用于填充实验逻辑性的一个工具。且下游研究的靶基因和通路基本上也围绕着整个故事展开。任何测序任何数据挖掘都有一个中心主轴,例如某课题组研究NF-Κb通路与肿瘤免疫逃逸这个大方向已经有接近10年之久,围绕这个通路和研究方向所发表的论文达到几十篇,那么他们研究基本上不会出现太多漫无目的的数据挖掘。流派三:交叉验证,交集缩小范围这种流派相对于流派一来说,更接近一步。在前期通过统计学和生信基础分析后会大致锁定一个较大的candidate验证基因的范围。然后通过其他组学或其他实验手段继续缩小范围。最后各种取交集会让RIP-seq中几百个候选基因只剩下不到20个,而这不到20个候选基因中,只有少部分符合研究人员后期的需求。这种做法也是目前常见的玩法之一。
接下来让我们看几篇联川客户非常典型案例,重温下RIP-seq数据挖掘中,有哪些地方可以值得借鉴的。作者通过RIP-seq,从YAP结合的lncRNA中筛选出8个与癌症相关的lncRNA。再根据是否与结直肠癌相关、是否与YAP移位相关,从这8个lncRNA中筛选得到lncRNA GAS5。YAP属于Hippo信号通路中非常重要的明星分子,UCSD的管坤良教授在这方面已发表了许多重磅研究。显然这篇文章中,作者肯定通过免疫组化等各种手段证实在结直肠癌中YAP阳性,而YAP有属于明星分子,于是下一步就有了YAP的RIP-seq。但是RIP-seq的结果往往会较多,这边作者聚焦到lncRNA上,从差异的lncRNA中选择出TOP10,继而通过一些生化实验证实了能够与YAP直接互作的lncRNA GAS5为下一步的candidate。这种属于较为硬核的筛选方法,优点就是能够发现一些新的分子,缺点就是统计学上筛选出的分子往往在实验过程中极易“翻车”。当然数据挖掘只是第一步,后面作者继续通过一系列生化实验证实了GAS5能够促进YAP磷酸化和泛素化并导致其降解,继而引出了YAP下游靶蛋白YTHDF3。这就是又一个属于m6A方向的明星分子。然后YTHDF3又能促进GAS5的降解,继而形成一个loop调控闭环网络。最后与临床故事紧密结合,一篇10分的文章就此结束。类似这种文章,YAP属于前期实验已经打下的基础,而在YAP target挖掘上,属于本次实验中风险系数最高最易翻车的部分。而一旦引出了GAS5后,后面target选择上风险系数会下降不少,先锚定磷酸化和泛素化经典组合,继而引出了YTHDF3,神来之笔是YTHDF3返回来调控GAS5。整篇文章target选择上并无太多冒进和比较谜的操作,作者无论是对经典通路了解还是生化基础的深厚度,都有保底高分文章的强劲实力。当然缺点也在于过于经典过于保守,也就是GAS5本身也是一条明星分子,YAP又过于经典,只能选择闭环方式开展此研究。需要说明的是,本文中m6A测序属于前面工作基础已经开展差不多的时候用于佐证GAS5与YTHDF3之间关系的补充实验,属于先有YAP-RIP-seq再有m6A-seq的前后顺序。这篇文章中,YTHDF1直接成为了明星候选分子,至于为何YTHDF1成为candidate用于下游验证,则是通过了多方证据,如GWAS、PCR以及其他测序数据等,最后得到了临床数据的佐证。既然锚定了YTHDF1,下一步工作YTHDF1干扰的方式从蛋白组层面找到了非常经典的Keap1-Nrf2-AKR1C1通路。虽然这边还未涉及YTHDF1的RIP-seq,作者显然对自己挖掘的基因有着强烈的目标感。值得一提的是,Nrf2作为一个转录因子,在诸多研究中都有报道。转录因子也好,组蛋白修饰也好,都是属于基因调控上游部分中非常重要又不容易翻车的候选方向。尤其是当许多研究人员面对大量差异基因一筹莫展之际,第一时间往往肯定会想到转录因子,本文自然也不例外。当然如何把Keap1-Nrf2-AKR1C1这个故事给圆掉呢?自然得找到YTHDF1究竟直接作用于哪些靶基因。很显然,这个时候就要祭出大杀器——YTHDF1-RIP-seq。首选作者猜测与细胞周期调节相关基因如CDK2、CDK4及cyclin D1应该会参与其中。注意,这边这个细节非常重要那就是在挖掘数据之前,心中一定要有一个大致方向。这边作者首先锚定的phenotype就是细胞周期紊乱,接下来CDK2、CDK4基因就是作者反推回RIP-seq的重要明星分子。由于YTHDF1是m6A阅读蛋白,那么m6A修饰也很重要。果然如上图所示,借助m6A-seq和YTHDF1-RIP-seq,作者同时在CDK2和CDK4的多种测序结果中找到了强烈的信号值。我们推测除了CDK2和CDK4,其他与细胞周期相关的基因作者也曾在考虑范围内,估计由于测序中信号不明显或者差异不显著,暂时不会成为作者下游验证的首选。另外RIP-seq与m6A-seq取交集也能进一步缩小candidate的范围,加上作者还做了蛋白组和转录组,这些多组学数据从差异结果中取交集,后期需要验证的candidate数量估计也在10-20个之间。总之这篇文章中,作者充分运用了上面提到的三种流派中的多种流派。虽然后期的生化结论不算是特别原创性发现(原创点来源高原乏氧动物GWAS研究锚定到了YTHDF1并且与高原平原肿瘤病人等临床故事结合到了一起),整个过程较为中规中矩,并与当时2019年的诺奖热点Hypoxia结合到了一起。在这篇文章中,作者直接开篇就引出了十分重要的m6A阅读蛋白YTHDF2作为明星分子进行研究。并对YTHDF2敲除的细胞实验等进行了一系列验证。这边需要注意的是,第一段中作者着重聚焦在细菌感染后宿主一些免疫反应,如LPS、Pam3CSK4、CL097这三种TLR家族的表达水平出现变化,而炎症相关的最关键的几个明星分子中作者接着继续锚定到IL-6等整个促炎症细胞因子这个大类上。当然作者没有放过普通转录组的挖掘机会,在NF-κB和MAPK信号通路中p65、p38、JNK及ERK等磷酸化及表达水平也进入了作者的视线中。作者将YTHDF2的RIP-seq数据与m6A-seq数据取交集后,进一步缩小范围(60% peak重叠),发现了组蛋白修饰相关的通路。至于为何关注到组蛋白修饰,可能作者前期就有了一个大概的心理预期,亦或是组蛋白修饰相关基因确实在基因功能富集分析中特别耀眼,亦或是当很多研究无法开展下去的时候转录因子和组蛋白是风险较小的选择等,我们不得而知。这边有一个结果出现了翻车的风险,那就是YTHDF2并没有直接binding IL-6的mRNA,这就表明这项工作出现了一些不太可控的因素,这种间接调控很容易把研究带入死胡同。所以这个时候组蛋白去甲基化修饰成为中间关键桥梁,而组蛋白相关基因已经出现了前面的测序结果中。而这个过程中,YTHDF2-RIP-seq中,作者又双叒叕锚定到了KDM家族,因为KDM家族是组蛋白H3K27去甲基化酶。这样子一个故事的调控网络逐渐浮出水面,整个数据挖掘过程都是遵循着预设大致的故事方向而展开的。即便是一条路走不通也可以尝试其他方向。整体来说,这篇文章中作者也综合运用了前面提到的多个流派,有自身丰富的知识储备,就能为数据挖掘少走弯路。